Telegram Group & Telegram Channel
Forwarded from Machinelearning
πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/machinelearning_interview/1747
Create:
Last Update:

πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data

BY Machine learning Interview






Share with your friend now:
tg-me.com/machinelearning_interview/1747

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

Machine learning Interview from us


Telegram Machine learning Interview
FROM USA